#problemas reales

DSAEval: Evaluación de agentes de ciencia de datos en problemas reales

Descubre DSAEval, benchmark con 641 problemas reales que evalúa agentes de IA. Resultados: Claude-Sonnet-4.5 lidera en rendimiento.